Nature评论:什么样的数据科学才能解决全球复杂问题
© Physics of creativity
在人们急于寻找技术方案来解决全球复杂问题的同时,研究人员与其他工作人员也面临着因为依赖技术而丧失发现关键因素和因地制宜解决问题的能力的危险。未来,我们需要将更多的精力放在数据背后的人的身上,以设计开发可以应用于现实世界中的数据驱动应用。
编译:集智俱乐部翻译组
来源:Nature
原题:Don't forget people in the use of big data for development
“那些来自卫星、手机或者其他渠道的数据并不是解决国际发展问题的万能药”,Jsohua Blumenstock 警告说。
如今,全球人口中手机的覆盖率已达到了 95%,与此同时持有手机的人数仍旧正在快速增长。手机会生产几十亿人的个人数据,其中包括还那些穷人。于是一些救援组织、研究人员和私企便正在通过“数据革命”来寻找改善国际发展问题的出路。
其中,一些企业正准备开放一些私有数据用于解决人道主义问题。
例如在加利福尼亚州的旧金山,就有一家地球成像公司会在一些自然灾害之后公开公司内部的高分辨率卫星图片,以便协调搜救工作。同时,世界银行和联合国也正在招募自己的数据科学家团队,从而利用统计学与机器学习的方法来攻克国际发展问题。
Young Rohingya refugees in Bangladesh in 2018. | Roger Lemoyne/Redux/eyevine
但是,在人们急于寻找技术方案来解决全球复杂问题的同时,研究人员与其他工作人员也面临着因为依赖技术而丧失发现关键因素和因地制宜解决问题的能力的危险。
设计开发一个可以应用于现实世界中的数据驱动的应用是非常耗时的,因为我们需要将更多的精力放在数据背后的人的身上。
美好愿景
美好愿景
在很多发展中国家,手机数据已经改变了人们消费贷款情况。
大约 5 年前,研究人员就发现那些经常打国际电话或者在同一地区有很多 facebook 好友的人更可能偿还贷款。机器学习算法可以识别出这种模式,然后给数亿个拥有手机的人提供信用评分,而有一些人呢,可能会因为没有抵押品或者无法去银行而被银行拒绝提供正规的金融贷款服务。
Intl Telecommun. Union, World Telecommun./ICT Dev. Report & database
其他研究表明,那些被谷歌、Facebook或者其他公司用于广告与在线人群匹配的算法,在经过一些调整后,可以用于资源与贫穷人口的匹配。
这些算法可以基于移动网络和卫星图片来提取贫穷的“数字签名特征”。
例如,在大部分非洲国家,富人会比穷人打更多的国际电话,而从卫星图片上看,穷人则更有可能会居住在茅草屋里。过去的几年的研究表明,类似的方法可以用于生成农作物产量和儿童营养不良的高分辨率图像。
原则上,使用这种图像可以使政府或者其他有关人员以一种比现在更加集中且有效的方式去进行人道主义救援。
有分析表明,在所有的脱贫政策中,有四分之一的政策使得富人比穷人更加受益。在亚美尼亚,两项始于 1996 年的研究项目表明,在数千万的救贫资金中,只有 8% 的资金真正起到了作用。
分析人们的“数字足迹”也可以改善在疫情期间的公共卫生措施,或者协助国家和国际社会应对危机。
例如研究人员已经可以使用手机数据,去监测哪些社区或者个人更容易受到疫情的影响、疫情发生后人们迁往何处,以及迁徙对疫情的传播有何影响。在不久的将来,应该可以实现追踪疫情对每个人实时的影响,就像投资者实时追踪其投资组合的波动一样。
现实的缺陷
现实的缺陷
使用数据工具有四个问题:
1. 预期之外的效应
从大数据获取的结果经常更加倾向于那些已经被赋予权力的群体,而不是弱势群体。这很大程度上是因为从数据中获取价位的权利往往集中在少数人手中。
以“数字信贷”为例,基于以往的手机使用情况,使用信用评分对潜在的借款人进行评估,随后贷款便会通过手机立刻到账。自从第一个这样的服务 M-Shwari 于 2012 年在肯尼亚推出以来,整个行业都得到了蓬勃的发展。银行、手机公司以及下一代的金融服务提供商仅在撒哈拉沙漠以南的非洲地区每天就可以产生数十万笔贷款。
如今,超过 25% 的肯尼亚人都身负至少一笔数字贷款。
据我所知,截至目前位置,还没有发表的研究来表明这些贷款是否真的有助于人们,还是说这些贷款就像美国那种短期、高利率的“发薪日”贷款一样,会导致贫穷的恶性循环和债务危机,或者后续会导致人们因为欠款而无法从银行取得贷款。
实际上,早在数字信贷出现的几十年前,就有大量关于小额信贷的文献,它们都指明并不是每个人都能从借钱中获利。
可以肯定的是,大部分数字信贷的消费者都是第一次贷款,调查表明其中很多人都不理解他们的贷款条款。例如,2015 年在卢旺达的一个研究发现,只有 51% 的借款人知道他们借款的利率。
挪用公款风险超过了公司承受范围。事实上,在社会制度薄弱或者半专制政权国家里,会以不一定使公民受益的方式来使用技术的可能性要大得多。例如在中国,多项报告指出,那些社会信用评分低的人会被限制乘坐火车或者飞机,还包括那些散布虚假恐怖主义和金融违法信息的人。
2. 缺乏验证
国际发展问题中的常规性数据收集方法包括调查和面对面专访,也许这并不完善。但这些方法已经被使用了数十年,其不足也被充分的记录与研究。相比之下,新方法的缺陷则尚不清楚。在对这些新工具进行充分的测试之前就进行部署是存在风险的。
使用数字数据,可以生成一个国家财富分布的粒度图,但其成本仅为传统家庭普查的一小部分。但是这些地图的准确性仅在少数几个国家进行了测试。有证据表明,在一个地区使用的检测模式并不一定具有普适性。例如,在卢旺达,拨打很多国际电话与富有的相关性远高于阿富汗。
如图展示了一副在尼日利亚的最富有(最亮)与最贫穷(最暗)的预测图,此图是基于卫星图片和手机数据,通过机器学习算法生成。
更令人担忧的是,没有证据表明此类算法会随着时间的推移而一直保持准确性。
我和同事们一直致力于开发互动工具,可以实现人口贫穷与脆弱的实时可视化。通过标杆分析法将地图预测值与多次的调查值(包括对收入,健康和就业状况问题的调查回答)进行对比, 我们已经可以看到地图的准确性下降的非常的快,有时仅仅几个月,预测地图的准确性就惨不忍睹。
为什么基于冬季手机数据训练的模型在夏季财富数据的预测上表现不佳呢?因为贫穷和手机的使用关系会发生变化。 这就像是在假日期间,富人打国际电话的次数大于穷人,但是这个模式并不适用于假期,因为这个时候很多人都在旅行。
最后,当人们意识到他们的个人数据被检监测并且用于决策,例如决定谁能获取人道主义救援或者谁能有资格获得贷款,这个时候人们肯定就会利用这个系统来牟利。GiveDirectly 是位于非洲和美国的一家非盈利组织,致力于向世界各地的贫困人口提供直接现金转移服务。
一开始的时候,他们使用卫星图片为有茅草屋顶的家庭提供援助。但是人们很快抓住了这个漏洞,有些人会在他们钢铁结构的房屋旁搭建一个茅草屋顶的房子,假装住在里面以便有资格获得援助。
3. 算法的偏见性
当我们使用有误差或者不完备的数据来训练我们的模型时,那些代表性不足的人往往就会被边缘化。这对处于新兴经济体的人们来说尤其有问题:总体来说,大部分弱势群体往往在新的数字数据里占比最少。
即使在这些新兴经济体的国家中,数据的代表性也有很大的差异。例如,谷歌地图或是 Waze 等导航应用的数据被越来越多的应用于了解城市的流动性。但是这些应用都需要在智能手机上,因此基于这些有误差的数据而做出的任何政策性决策,都有可能主要服务于社会中比较富裕的群体。
手机需要网络和电力。社交媒体上需要一定的素质。许多数字信贷平台则需要人们有一部手机和一个 facebook 账号。而这些先决条件则排除了发展中国家的大部分人口。
4. 缺乏监管
传统情况下,发展数据主要由政府和援助组织收集和传播。而支撑人工智能应用所需的数据通常由私企掌控,而这些企业是不见兔子不撒鹰——以利润最大化为导向。
在大部分富裕国家里,立法的目的在于限制政府和公司滥用职权。美国最高法院最近裁决,执法机构在没有授权的情况下不能访问手机数据。在欧洲的通用数据保护法则更为严格。而在很多发展中国家,基本没有这样的制衡机制,那些确实存在的法规也很少执行。
目前,大多数发展中国家都不关注数据隐私、算法透明度、公平性和责任性。
前进之路
前进之路
为解决上述问题,可采取以下几个步骤:
1. 加强验证
新的数据来源可以作为已有来源的补充,而不是取代旧数据来源。传统的数据集对于校准和验证大数据应用至关重要。当我们使用“贫穷地图”等工具的时候,需要使用现有的方法对预测结果进行验证。
这种双管齐下的方法正在被应用到世界粮食计划署对海地的救援工作中。该组织意识到了电话数据节省成本的潜力。所以,在研究人员的合作下,他们正在进行一个对比试验,电话数据与调查数据的收集工作并举进行。
2. 定制化
大多数情况下,我们使用的核心技术都是为现实直观世界而设计的,比如说,使用朋友姓名自动标记 facebook 上的照片。发现一种算法可以被应用于不同的领域是一种很重要的洞察能力,例如在卫星照片中识别贫穷地区。但是在它能够被决策者实际使用前,还需要做进一步的定制化处理。
在数字信贷这一案例中,一个学习型算法可能在预测贷款偿还问题上非常准确,但是决定是否要放贷应该根据当地的实际情况而定。
考虑到这一点,我的同事和我正在和加利福尼亚的 Branch 公司进行合作,该公司为非洲的数百万人提供小额贷款,该合作帮助我们研究可以衡量借款人违约风险和贷款可能影响的算法。
我们的想法就是从一开始的时候就采取一种方法来识别这种这些贷款是否真的有益,并为每个借款人打出其对应的“影响分数”和“信用分数”。同时,来自研究社区关于使得机器学习算法更加公平、负责和透明的见解对我们有很多帮助。
3. 深化合作
很多创新都来自于小团体,特别是来自加州硅谷的工程师们。很多公司,包括那些数字信贷的先驱们都是怀着让世界更美好、让利润更丰富的愿景前进的。
但是在前行路中遇到的挑战是不可能被那些只花费 20% 的时间的边缘化项目所解决。下一代的解决方案必须由深入理解这个问题的人来设计和制作,而不能完全依靠那些只懂算法的人。
解决这一问题的一种方法就是促进数据科学家、发展专家、政府、民间社会和私营小团体的合作,特别还需要该国研究该问题的人和组织的参与。
一个典型的范例就是 DataKind,这是一个试图将数据科学家和社会变革组织联系起来的全球网络组织,其中需要议题都专注于新兴经济体问题。正如数据促进发展一样,2012 和 2014 年,总部位于巴黎的电话公司 Orange 向世界各地的研究人员提供了大量的数据,这使得贫困地图和城市规划的早期工作得以开展。
同时,为硅谷工程师们提供的奖金、竞赛、实习和各种海外工作机会可能会提高数据科学家对不同国家人民所面临的挑战的理解。
更好的办法仍旧是努力提高当地的技术能力。谷歌和 facebook 正在为“非洲机器智能大师”项目募集资金,这是一个为期一年密集课程项目,将于本月在卢旺达推出。
同样令人振奋的是,南非的开普敦大学现在提供为期三周的夏令营,以及非洲数据科学大会,该会议由非洲研究人员提出。同样,内毕罗的创意空间 iHub 已经帮助孵化了数百家肯尼亚的初创企业。但是,这些都是个例,而不是常态,还需要我们付出更多这样的努力才行。
更谦逊的数据科学
更谦逊的数据科学
我相信大数据可以改变国际社会发展。但是近十年来,很多有意义的项目都错失良机。联想到“每个孩子都要有一台笔记本电脑”,这项计划曾被誉为世界救星,但是最终失败了。因为开发人员无法理解他们想要去推广的社会和文化环境。
Metamarket 平台的首席执行官 Mike Driscoll 这样描述数据科学:“是混搭了红牛刺激式的解码工具与浓咖啡提神式的统计学。”
在我看来,开发中成功使用大数据需要更加亲民的数据科学而不是现如今这个依靠大众想象力的数据科学。
翻译:奔跑的笤帚把子
审校:李周园
编辑:王怡蔺
原文:
https://www.nature.com/articles/d41586-018-06215-5
推荐阅读
推荐课程
PC端观看地址:
https://campus.swarma.org/gpac=10069
今日直播
B站直播间:https://live.bilibili.com/8091531
集智俱乐部QQ群|292641157
商务合作及投稿转载|swarma@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!